Дана сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей (если книги похожи по пользовательским оценкам, то между ними в графе есть связь).
Исследовательские вопросы:
Использованные меры центральности: степень (degree)
Посмотрим на вершины, у которых больше всего связей, то есть большее количество похожих на них по оценкам комиксов.
Следующие двадцать комиксов имеют наибольшие показатели центральности по степени:
## title Degree
## 1 Y: The Last Man, Vol. 1: Unmanned 109
## 2 Fables, Vol. 1: Legends in Exile 92
## 3 Saga, Vol. 1 (Saga, #1) 90
## 4 Batman, Volume 1: The Court of Owls 90
## 5 Watchmen 89
## 6 Preacher, Volume 1: Gone to Texas 87
## 7 All-Star Superman, Vol. 1 87
## 8 Kingdom Come 85
## 9 Saga, Vol. 2 (Saga, #2) 79
## 10 Batman, Volume 2: The City of Owls 77
## 11 The League of Extraordinary Gentlemen, Vol. 1 76
## 12 Y: The Last Man, Vol. 2: Cycles (Y: The Last Man, #2) 76
## 13 Batman: Year One 72
## 14 Saga, Vol. 3 (Saga, #3) 72
## 15 Fables, Volume 2: Animal Farm (Fables, #2) 71
## 16 Ms. Marvel, Vol. 1: No Normal 70
## 17 Batman: The Long Halloween 69
## 18 Fables, Vol. 3: Storybook Love 69
## 19 Batman: The Dark Knight Returns (The Dark Knight Saga, #1) 69
## 20 Hawkeye, Volume 1: My Life as a Weapon 69
Использованные меры центральности: центральность по посредничеству, битвинность (betweenness)
Посмотрим, какие вершины являются посредниками между группами комиксов. Для этого используем показатель центральности по посредничеству, битвинность (betweenness).
Следующие двадцать комиксов имеют наибольшие показатели центральности по посредничеству:
## title Betweenness
## 1 Y: The Last Man, Vol. 1: Unmanned 24992.547
## 2 Saga, Vol. 1 (Saga, #1) 18306.750
## 3 Hawkeye, Volume 1: My Life as a Weapon 15667.467
## 4 Batman, Volume 1: The Court of Owls 15313.505
## 5 Ms. Marvel, Vol. 1: No Normal 13979.781
## 6 Astonishing X-Men, Volume 2: Dangerous 11060.453
## 7 Watchmen 10422.179
## 8 Fray 9988.091
## 9 Fables, Vol. 1: Legends in Exile 9615.790
## 10 The Walking Dead, Vol. 01: Days Gone Bye 9227.898
## 11 This One Summer 8669.353
## 12 All-Star Superman, Vol. 1 8111.476
## 13 Saga, Vol. 2 (Saga, #2) 7616.976
## 14 Kingdom Come 6726.950
## 15 Batman: Year One 6356.257
## 16 Drama 6130.934
## 17 Preacher, Volume 1: Gone to Texas 5772.668
## 18 Astonishing X-Men, Volume 1: Gifted 5336.630
## 19 Lazarus, Vol. 1: Family 4717.521
## 20 Batman, Volume 2: The City of Owls 4715.502
Использованные меры центральности: центральность по близости (closeness)
Если рассматривать вершины с наиболее короткими путями до остальных, наиболее близкие к остальным, то следующие комиксы имеют наибольшие показатели близости:
Следующие двадцать комиксов имеют наибольшие показатели центральности по посредничеству:
## title Closeness
## 1 Y: The Last Man, Vol. 1: Unmanned 0.000007411855
## 2 Saga, Vol. 1 (Saga, #1) 0.000007409603
## 3 Watchmen 0.000007408779
## 4 Fables, Vol. 1: Legends in Exile 0.000007406200
## 5 Hawkeye, Volume 1: My Life as a Weapon 0.000007405652
## 6 Batman: Year One 0.000007405323
## 7 Saga, Vol. 2 (Saga, #2) 0.000007404555
## 8 Batman: The Killing Joke 0.000007404226
## 9 Batman, Volume 1: The Court of Owls 0.000007404226
## 10 Batman: The Dark Knight Returns (The Dark Knight Saga, #1) 0.000007403733
## 11 Locke & Key, Vol. 1: Welcome to Lovecraft 0.000007403459
## 12 Preacher, Volume 1: Gone to Texas 0.000007401815
## 13 Saga, Vol. 3 (Saga, #3) 0.000007401651
## 14 Ms. Marvel, Vol. 1: No Normal 0.000007400774
## 15 The Walking Dead, Vol. 01: Days Gone Bye 0.000007400062
## 16 Saga, Vol. 4 (Saga, #4) 0.000007400062
## 17 Kingdom Come 0.000007400062
## 18 All-Star Superman, Vol. 1 0.000007399953
## 19 Astonishing X-Men, Volume 1: Gifted 0.000007399953
## 20 Y: The Last Man, Vol. 2: Cycles (Y: The Last Man, #2) 0.000007399624
Из всех комиксов наибольшие показатели по всем мерам центральности имеет комикс “Y: The Last Man, Vol. 1: Unmanned”. 12 из выше перечисленных комиксов являются важными и занимают места в топ-20 по всем мерам центральности:
## title
## 1 Y: The Last Man, Vol. 1: Unmanned
## 2 Fables, Vol. 1: Legends in Exile
## 3 Saga, Vol. 1 (Saga, #1)
## 4 Batman, Volume 1: The Court of Owls
## 5 Watchmen
## 6 Preacher, Volume 1: Gone to Texas
## 7 All-Star Superman, Vol. 1
## 8 Kingdom Come
## 9 Saga, Vol. 2 (Saga, #2)
## 10 Batman: Year One
## 11 Ms. Marvel, Vol. 1: No Normal
## 12 Hawkeye, Volume 1: My Life as a Weapon
Визуализируем сеть, учитывая различные меры центральности, но перед этим, посмотрим на некоторые параметры в имеющемся датасете.
Посмотрим, влияет ли серия книг на образование связей.
На графе видно, что книги из одной серии часто располагаются рядом друг с другом, то есть образуют связи и похожи друг на друга, но есть и исключения. Возможно, те серии, которые выбиваются из общего тренда, являются экспериментными, например, когда вводят нового персонажа и рейтинги падают или взлетают. Тем не менее, хоть и есть похожие оценки, они не всегда идентичны.
Посмотрим на показатели ассортативности.
## [1] 0.1987977
Коэффициент ассортативности равен 0.1930176 ,то есть связи склонны формироваться у комиксов одной серии, но эта склонность невелика.
## [1] 0
P-value = 0 показывает, что это разделение маловероятно получилось случайно. Связи склонны формироваться у комиксов одной серии, но эта склонность невелика
Посмотрим, похожи ли оценки на комиксы у одного и того же автора, существует ли связь между ними. Для этого посмотрим каковы связи в комиксах у 11 авторов с наибольшим количеством представленных комиксов (16 комиксов и больше)
Большинство текстов одного и того же автора связаны между собой, то есть у одного автора одинаковые оценки, но есть и исключения, в том числе образование групп комиксов с похожими оценками.
Посмотрим на расположение на всем графе.
Часто комиксы одного и того же автора образуют группы, то есть связи между ними “притягивают” их друг к другу, их оценки похожи, но существуют несколько групп одного автора, то есть часто комиксы похожи друг на друга, но их оценки не всегда одинаковые.
Посмотрим на показатели ассортативности.
## [1] 0.2992721
Коэффициент ассортативности равен 0.2992721, то есть связи склонны формироваться у комиксов одного автора, но эта склонность невелика.
## [1] 0
P-value = 0 показывает, что это разделение маловероятно получилось случайно. Связи склонны формироваться у комиксов одного автора, но эта склонность невелика.
Центральность по степени показана размером, серии книг показаны цветом
Центральность по степени показана размером (чем больше размер, тем больше показатель центральности), авторство показано цветом
Значимых паттернов в отношении определенного автора или серии комиксов в центральности по степени не наблюдается.
Центральность по посредничеству показана размером, серии книг показаны цветом
Центральность по посредничеству показана размером (чем больше размер, тем больше показатель центральности), авторство показано цветом
Значимых паттернов в отношении определенного автора или серии комиксов в центральности по посредничеству не наблюдается.
Центральность по близости показана цветом
Посмотрим на распределение оценок и количества отзывов во всем датасете и каковы они в наиболее важных вершинах (взяты 12 вершин, которые входят в топ-20 по разным показателям центральности).
Распределение оценок и количества отзывов во всем датасете:
Распределение оценок и количества отзывов наиболее важных вершин:
“Y: The Last Man, Vol. 1: Unmanned” является самым важным по всем всем мерам центральности и 12 комиксов являются наиболее важными для сети по разным мерам центральности и занимают место в топ-20. По количеству связей, то есть сколько существует комиксов с похожей оценкой (degree), лидируют “Y: The Last Man, Vol. 1: Unmanned”, “Fables, Vol. 1: Legends in Exile”, “Saga, Vol. 1 (Saga, #1)”, “Batman, Volume 1: The Court of Owls”, у которых их 90 и более. По посредничеству, центральными комиксами являются “Y: The Last Man, Vol. 1: Unmanned”, “Saga, Vol. 1 (Saga, #1)”, “Hawkeye, Volume 1: My Life as a Weapon”, “Batman, Volume 1: The Court of Owls”, которые являются посредниками между другими комиксами. Наиболее важные комиксы по близости: “Y: The Last Man, Vol. 1: Unmanned”, “Saga, Vol. 1 (Saga, #1)”, “Watchmen”, “Fables, Vol. 1: Legends in Exile”. После ознакомления с такими комиксами, пользователь сможет быстрее дойти от одной вершины до другой во всей сети. Можно увидеть, что самые важные в сети комиксы имеют оценку около 4-4.5, в то время как количество отзывов на них разнится.
Оценки комиксов одного автора или из одной серии часто похожи друг на друга, образуя группы с похожими оценками, но оценки не всегда идентичны, поэтому существует несколько групп одного автора или одной серии. Причиной такой разницы могут быть изменения в комиксах (введение новых персонажей, сюжетных линий, др), которые влияют на оценки пользователей. Ассортативность небольшая, что указывает на то, что связь склонна образовываться между комиксами одной серии или автора, но это не является ключевым фактором образования сети.
Использованные меры выделения сообществ: Fast-Greedy
Метод Fast-Greedy – иерархический подход, при котором при вершины представляют собой отдельные сообщества, и объединяются таким образом, чтобы это привело к наибольшему возрастанию модулярности.
Разделение по такому признаку приводит к выделению 28 сообществ, модулярность равна 0.66, что показывает что сеть разделили на сообщества довольно хорошо.
Использованные меры выделения сообществ: Walktrap
Метод Walktrap - подход, основанный на случайных путях (больше шансов, что путь будет чаще оставаться внутри сообщества и только иногда выходить за его пределы).
Разделение по такому признаку приводит к выделению 41 сообщества, модулярность равна 0.7, что показывает что сеть хорошо разделили на сообщества.
Визуализируем полученные сообщества.
Сообщества, полученные методом Fast-Greedy
Сообщества, полученные методом Walktrap
Так как сеть у нас сформирована по похожести комиксов по оценкам пользователей (если комиксы похожи по пользовательским оценкам, то между ними в графе есть связь), то выделенные сообщества, предположительно, разделяют граф на группы со схожими или идентичными оценками. В первом графе групп 28, а во втором - 41.
Посмотрим, какие факторы могли повлиять на разделение на сообщества. Возьмем сообщества: полученные методом Walktrap, так как модулярность в этом случае больше, и посмотрим на 4 сообществ: 1, 10, 19, 32 (номера взяты случайно).
Как мы видим, сообщества, могли бы быть выделены по принципу близкой оценки, но это не всегда так, и оценки часто пересекаются в разных сообществах.
Посмотрим, влияют ли авторство и серия на разбиение сообществ на примере тех же сообществ.
Как можно увидеть, некоторые сообщества состаят из комиксов премущественно одной серии или одного авторства. Из этого можно сделать вывод, что на рспределение по сообществам влияло много факторов, включая связи по рейтингу, авторству, сериям и, возможно, другим признакам, которые не были здесь рассмотрены.
С помощью методов Fast-Greedy и Walktrap были выявлены 28 и 41 сообщества соответственно. Так как сеть у нас сформирована по похожести комиксов по оценкам пользователей (если комиксы похожи по пользовательским оценкам, то между ними в графе есть связь), то выделенные сообщества разделяют граф на группы со схожими или идентичными оценками, но также играют роль и другие факторы, такие как, например, авторство или серия комиксов.
Проанализировав сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей, были получены следующие выводы:
Комикс “Y: The Last Man, Vol. 1: Unmanned” является самым важным по всем всем мерам центральности и 12 комиксов являются наиболее важными для сети по разным мерам центральности и занимают место в топ-20 (“Y: The Last Man, Vol. 1: Unmanned”, “Fables, Vol. 1: Legends in Exile”, “Saga, Vol. 1 (Saga, #1)”, “Batman, Volume 1: The Court of Owls”, “Hawkeye, Volume 1: My Life as a Weapon”, “Batman, Volume 1: The Court of Owls”, “Watchmen” и др.).
Авторство и принадлежность к определенной серии влияют на образование связей, но эта связь не является ключевым фактором образования сети. Оценки комиксов одного автора или одной серии похожи друг на друга, образуя группы с похожими оценками, но оценки не всегда идентичны, что ведет к образованию нескольких групп одного автора или одной серии и “выпадающих” из общего тренда комиксов. Причиной такой разницы могут быть изменения в комиксах (введение новых персонажей, сюжетных линий, др), которые влияют на оценки пользователей.
Так как сеть у нас сформирована по похожести комиксов по оценкам пользователей, то схожесть оценок влиет на выделенные сообществ, но также играют роль и другие факторы, такие как, например, авторство или принадлежность к определенной серии комиксов.